HKU ICB
AI新浪潮下的中美及全球合作机遇
Back10 Mar 2025 | 深度观点
2025年香港大学中国商业学院
新年展望论坛 林咏华女士主题分享
整个职业生涯有绝大部分是在IBM研究院,相信我不用解释IBM是谁,然而我过去的几年是在智源,我想我得告诉大家智源是做什么的。智源是在2018年成立的新型研发机构,当时是7个首批新型研发机构中唯一一个做人工智能,它在2019年踩的点很准,在那个时候就選擇大模型作为我们的研究方向。因为人工智能很宽,我们作为到现在为止有200多个顶尖全职研究员的AI研究机构,我们也只能選擇其中的一个方向,那就是大模型。
我们在2021年训练出了全球最大的悟道大模型1.75万亿参数,这个参数量就跟GPT4差不多,但是性能差远了,所以证明scaling law不是alwayswork的。2023年上半年微软的总裁Brad Smith接受采访的时候,记者问他你认为全球除了微软之外三个最重要的AI领域的leadership有哪些时,他提到了BAAI智源。我们也被大家戏称为中国大模型的黄埔军校,因为的确从智源研究院出来的很多团队与老师,大家可以看到这些机构都是由我们孵化出来,或者说他们的负责人就是从智源出来的。
从我自己在IBM这么多年,到了现在去到了智源,我觉得很重要一点是中美肯定要在科技领域保持着合作和开放。有什么是中间的牵引?我觉得到今天为止,肯定是开源。
从2013年到2024年,可以戏称为小模型时代,到2023年开始是整个业界的大模型时代。走过从小模型到大模型的浪潮,我认为开源在大模型时代甚至比小模型时代还重要,为什么?首先大模型可以总结为四个最重要的技术资源,需要有算法,有数据,有评测技术,也需要有算力。但是,为什么认为大模型时代对开源合作,尤其是全球合作尤为重要?
首先它的创新成本太高。任何一个在基础大模型上的算法的创新都需要花费数以千万计的人民币重新从From Scratch去验证。所以没有哪一个机构都能够负担起所有的算法创新都由自己来做,所以今天大家看到很可喜的一面,无论是中美还是欧洲,你方唱罢我登台,大家验证过这些技术,因為創新真的太昂贵了,持续创新需要节约成本。
第二个很多在大模型中重要的资源已经不可能由同一个机构完全的具备。一个机构不可能拿到全球所有他需要的数据的资源。
另外一个是评测。目前智源做了三年的大模型评测,我们至今也认为我们只是见到了冰山的一角,所以如果不是全球不同的专业人士、专业团队一起来做大模型评测,并且开源出来,很难去对大模型有一个全面能力的探索。
还有最重要的一点是底层的创新,必须有上面统一的生态系统。有两个例子,一个是芯片,在国内到去年为止,超过40家不同的AI芯片企业,他们的生态都不一样,是割裂的。如果我们没有统一的开源的生态怎么办?今天其实慢慢暴露出来的是另外一个问题,机器人。2024年在中国已经有超过80家机器人公司,不同的机器人从本体内部的结构,甚至到灵巧手触角的sensor的位置和选型都不一样。所以,如果我们没有开源创新,很难建立起一些统一开放的生态。
我就各举一个例子给大家看一下。
首先,模型算法。
今天来看,我们很难设想如果没有模型算法的开源,我们如何有今天AI快速的发展。大家可以看看右边有一些新的数字,一个是GitHub,GitHub是全球开源代码的地方,在2023年大模型产业蓬勃发展的时期,GitHub上新增的AI开源项目比2022年增加了60%。另外还有Huggingface,Huggingface现在也是全球开源数据、开源模型的地方,每天有超过3600个模型在上面开源。通过这些开源的力量,推动整个产业的发展。
另外,这里也是给大家看一些最新的数据,其实在开源过程中,中美一直都在推动着,左边这个表实际上是给大家看我们在去年11月份统计Huggingface上每月下载量超过10万的模型都来自于哪里,大家可以看到来自于中国的模型超过了半壁江山。另外,右边大家可以看到Huggingface刚出来的数据,统计了2023年Huggingface上面下载量最多的模型是来自于智源的BGE,这是我们的向量模型,全球一年已经下载了超过5亿,2024年排在第一的是阿里的千问,占了下载量的26.6%。当我们去外面,去美国参加会议的时候,别人都会recognize中国在整个大模型上的推动。
数据,说到数据我觉得值得致敬的是这三个开源数据集,一个是ImageNet,一个是Common Crawl,一个是Laion,没有这三个数据集,不会有今天AI的发展。ImageNet实际上是在2013-2014年那一波以computer vision为基础发展起来的企业中的一员,如果没有ImageNet,就没有那个时代的Deep Learning。Common Crawl是全球最大的网页collection,没有Common Crawl在过去十几年收集了全球2000多亿的网页,不可能有今天所有的语言模型,还有Laion,所以我们很致敬这些开源的数据集。
但是它们是不是足够?完全不够。当我们在2022年底,ChatGPT出来的时候,2023年初国家以及中央网信办,包括我们也都同时看到了很巨大的问题,这些模型产生的中文的内容,有很多并不好。另外在今年的GPT4.0出来的时候,OpenAI开放了它用来训练Token Nansen的数据集,那个数据集代表着全球各种语言最常用的数据,中文的数据中有很多污秽不堪的语言。OpenAI并没有查那个数据,但是我们知道原因是为什么,因为Common Crawl在国外的语言数据中,中文的数据80%多是来自于海外的网站,没有经过任何的清洗。所以坦白说,咱们这个事情发生之后,全球任何一个华人都会觉得蒙羞,因为里面的那些语言真的是污秽不堪。这并不关乎任何政治,但是关乎于我们作为华人的脸面。
实际上智源研究院也是做了我觉得很了不起的一件事就是在2022年初,我们拉动了全国80多个机构不断的去做数据集,围绕着中文的数据集的收集和开源。我就单独拿一个数据集为例,其中一个是我们的指令微调数据集,900万的指令微调数据,我们要拿基础模型再去训练对话模型里需要的数据集。这个数据集出来之后,短短几个月,全球就已经有十多万的下载,尤其关键的是我们发现几个月内,Huggingface上面已经有100多个模型用了我们这个数据集训练他们的模型再开源出来,我们也不知道那些开发者在哪,全球都有,这是我们希望的,全球任何一个机构如果想打造有中文能力的模型,我们希望它的中文训练数据是来自于咱们中国的。
下一个很重要的数据是什么,具身智能的数据,用来训练机器人大脑的数据。我们希望把大模型放到机器人的大脑里,让机器人比今天可以做的事情更多,甚至一个模型可以跨不同的本体,不同的机器人去安放。今天来说在这一方面,我们很缺乏的是多样性的,可以在大量不同的机器人本体上采集的数据,可以面向不同领域甚至不同行业的数据,因为这些数据都需要有很多的真机采集,我们发动了国内一些部委级的一级协会一起,希望大家一起开源,一起把机器人的数据集这个重要问题解决。
最后一个,我不得不说的跟算力相关。这个问题跟多元AI芯片问题相关。大家知道,英伟达很成功,其实英伟达的成功并不在于它的硬件成功,更在于它的软件生态太成功了,Cuda这个生态,英伟达花了10多年的时间,100多亿的美金,现在基本上垄断了整个AI算法中所用到的95%以上的编译器。所以我们发现别说咱们在中国的本土的AI芯片,连同AMD、英特尔都没办法,做出好的芯片又怎么样,软件人员只喜欢用Cuda。所以大家可以看到它的困境在于现在各个AI芯片的厂商,硬件架构不一样,指令集不一样,编译器不一样,上面的算法库自己从头到尾自己打造,所以个个都是烟囱型的。这个导致的问题是软件开发者、大模型的算法开发者不敢轻易的移植到任何一个上面,因为他怕找不到他要用的一些算法,更新速度慢。
其实不单是我们看到这个困境,其实美国的厂商也看到这个困境,包括英特尔、AMD、高通等等。所以现在我们在全球合作中,基于不同的技术一起来打造开源开放、统一并且是协作型的生态,我们把这种烟囱型的生态,变成横向的。
在这个框架上面,开源的语言和编译器其实来自于OpenAI、英特尔。基于这个之上,我们在打造通用的开源的算子库并行的框架,统一的通信库,智源目前联动了全球十多家芯片企业,包括各大系统厂商,还有框架厂商等等。这个工作已经取得了不错的成效,但我们希望在2025年进一步使得大家有更多的芯片可用,多元化的芯片可用,但这里很关键就是说我们需要通过开源和跟全球的合作,构建这样一个开放的统一生态。
回到中美的合作,这个是HuggingFace通过2024年刚过去的NIPS(NeurIPS,全称神经信息处理系统大会)发布的数据,在NIPS这样一个AI最顶级的学术大会上看到美国和中国主导了全球AI研究,但是实际上目前在美国和中国,尤其是大家认为特朗普2.0时代,大家还是十分希望保持这样的开源创新。右边的那张图是今年11月份当特朗普的选情出来,刚好第二周是Linux基金会的年会,我们专门组了一个闭门会,那个基金会的Director Board跟我们中国团队一起去讨论在特朗普2.0时代怎么保持全球的开源,尤其是AI和大模型的开源上面的挑战。大家最后都是希望虽然有一些事情使得一些门慢慢的不像原来打的那么开,但是我们希望通过双方的努力,不断的把这个门不断的扒开,我们需要走出去,坚持我们的开源创新。
作者简介:
林咏华 女士 Ms Lin, Yong-hua
北京智源人工智能研究院(BAAI) 副院长